Diffusion as classifier
date
Nov 30, 2023
Last edited time
Nov 30, 2023 09:57 AM
status
Published
slug
Diffusion as classifier
tags
DDPM
summary
type
Post
Field
Plat
(ICCV2023)Your Diffusion Model is Secretly a Zero-Shot ClassifierVariance Reduction via Difference TestingEffect of timestepExpROBUST CLASSIFICATION VIA A SINGLE DIFFUSION MODELMETHODOLOGYDIFFUSION MODEL FOR CLASSIFICATIONROBUSTNESS ANALYSIS UNDER THE OPTIMAL SETTINGLIKELIHOOD MAXIMIZATIONOverall FrameworkExp
(ICCV2023)Your Diffusion Model is Secretly a Zero-Shot Classifier
在本文中,我们展示了如何利用从大规模文本到图像扩散模型(例如稳定扩散)中获得的密度估计来进行零样本分类。这种方法无需进行任何额外的训练。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F96bd1acd-7b49-4a1e-8df4-1f59dae094eb%2FUntitled.png?table=block&id=a84ad4b5-6e41-4460-baf6-f892f39fc63b&cache=v2)
一般来说,使用条件生成模型进行分类可以通过在模型预测 和先验 上应用贝叶斯定理来实现,其中 表示标签。
对于 的均匀先验分布(即 )是自然的,并且导致所有的 项相互抵消。对于扩散模型,计算 是棘手的,因此我们使用ELBO替代 ,并使用Eq. 4 获得 在 到 上的后验分布:
最小化对数似然的变分下界(ELBO):
其中 是一个与 无关的常数项。
为了计算每个期望的无偏Monte Carlo估计,我们对 个 对进行采样。其中, 是从区间 中随机选择的数值, 是从均值为0、方差为单位矩阵的正态分布 中采样得到的。然后,我们对这些采样值进行计算:
Variance Reduction via Difference Testing
准确估计每个类别 的 ,即使使用数千个样本的蒙特卡罗估计也不能可靠地区分类别。然而,我们只需要根据预测误差之间的相对差异来进行判断。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fe98383d3-3bca-46c8-96f2-32ecef83813e%2FUntitled.png?table=block&id=3209f074-0a8a-4525-bf8a-7dd2f31441f4&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fad615987-aee3-43d9-afe4-fe90289c9df8%2FUntitled.png?table=block&id=b80fef0a-3014-4cd2-b9e8-e588a690a410&cache=v2)
实际上,我们可以通过采样固定集合 来估计每个条件输入 的 ELBO,而无需为每个 使用不同的随机样本 。在图2中,我们使用4个固定的 值,对于每个 ,两个提示("萨摩耶犬"和"大白熊犬")以及一个固定的大白熊犬图像,评估 。即使对于固定的提示, 预测误差在使用特定的 时也会有很大的变动。然而,每个 的每个提示之间的误差差异要一致得多。因此,通过为每个条件输入使用相同的 ,我们对 的估计更加准确。
Effect of timestep
图3展示了在每个类别中仅使用一个时间步长评估时的准确度。可以直观地看出,当使用中间的时间步长()时,准确度最高。
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fe12475c8-105c-4503-9717-b90514aec6b4%2FUntitled.png?table=block&id=5394ed20-d5cb-43f2-9645-3b2b97143d5c&cache=v2)
Exp
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F6c83e6b8-dfad-46d1-a550-52d7b50ff32c%2FUntitled.png?table=block&id=00b2a791-4fca-43f4-83d6-53170c4aaaf8&cache=v2)
ROBUST CLASSIFICATION VIA A SINGLE DIFFUSION MODEL
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F06d322b0-6594-4639-97ba-e00e3509f3a7%2FUntitled.png?table=block&id=c7505d0a-8f0c-4df3-8d63-732f1268dc98&cache=v2)
METHODOLOGY
在本节中,我们介绍鲁棒扩散分类器(RDC),这是一个根据预训练扩散模型构建的鲁棒(生成)分类器。我们首先介绍如何将(类条件)扩散模型转换为分类器。
DIFFUSION MODEL FOR CLASSIFICATION
给定一个输入 ,分类器计算出所有类别 的概率 ,其中 是类别的数量,并输出最可能的类别作 。
Let denote the gap between the log-likelihood and the diffusion loss. Assume that is uniformly distributed as and for all , . The conditional probability can be approximated by
Prove:
When , we can get:
Therefore,
CONNECTION BETWEEN ENERGY-BASED MODELS (EBMS)
The EBMs (LeCun et al., 2006) utilize neural networks to directly learn and .
Where and is the normalizing constant. We can use EBMs to classify images by calculating the conditional probability:
where
Therefore, our diffusion classifier can be considered as an EBM, with the energy function being the conditional diffusion loss.
ROBUSTNESS ANALYSIS UNDER THE OPTIMAL SETTING
本章节证明当扩散模型最优的时候(具有最小的损失)时,上述条件成立。但是,对于一些对抗的输入,这个条件并不能满足。
LIKELIHOOD MAXIMIZATION
为了解决上述问题,一个直接的方法是最小化扩散损失 ,以便输入能够逃离扩散模型无法提供准确密度估计的区域,或者似然度和扩散损失 之间的差距很大。然而,我们不知道 的真实标签,使得优化变得不可行。作为替代策略,我们建议最小化无条件的扩散损失。
为了避免将优化输入 优化到其他类别的区域,我们通过限制其与原始输入 之间的 范数小于。由于方程实际上是最大化对数似然的下界,我们将这种方法称为似然最大化。
这种方法也可以看作是一种新的基于扩散的净化防御方法。一方面,Xiao等人(2023)证明了对于净化防御,具有更高似然性和与真实数据的距离更小的净化输入 往往会导致更好的鲁棒性。与DiffPure相比,我们的方法通过限制优化预算 ,使得与真实数据的距离更小。此外,与DiffPure不同,DiffPure仅以很高的概率最大化似然性(Xiao等人,2023),而我们直接最大化似然性,从而提高了鲁棒性。另一方面,因为对抗样本通常位于与其对应的真实样本的附近,沿着朝着更高的对数概率的方向移动可能会导致更高的对数概率。因此,扩散分类器可以更准确地对优化输入 进行分类。
Overall Framework
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2Fc20a732d-927f-462d-95b3-f93d2713bb07%2FUntitled.png?table=block&id=09b13cca-1aeb-402f-89f5-22ad6e45ab89&cache=v2)
Exp
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F5a1fb8ee-35bb-448f-9391-98fa7aa285bf%2FUntitled.png?table=block&id=e012b4cd-d886-407f-be29-331fe7f07827&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2Fd919c123-ae4b-49b3-af3c-0184fe33faac%2F08330074-c69f-4fc1-beb5-687a2751010a%2FUntitled.png?table=block&id=f5a360a5-fbcf-401c-9f66-27158c6c5ee7&cache=v2)